{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "import package successful...\n"
     ]
    }
   ],
   "source": [
    "# import some packages\n",
    "import pandas as pd\n",
    "from collections import Counter\n",
    "from tflearn.data_utils import pad_sequences\n",
    "import tensorflow\n",
    "import random\n",
    "import numpy as np\n",
    "import h5py\n",
    "import pickle\n",
    "import jieba\n",
    "import tensorflow as tf\n",
    "print(\"import package successful...\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "train_data: (4774, 2)\n",
      "valid_data_x: (2381, 2)\n"
     ]
    }
   ],
   "source": [
    "# read source file as csv\n",
    "base_path='data/'\n",
    "\n",
    "train_data=pd.read_csv(base_path+'training.csv', encoding=\"utf-8\",header=None)\n",
    "valid_data=pd.read_csv(base_path+'testing.csv',encoding=\"utf-8\",header =None)\n",
    "valid_data.columns = ['index', 'sentence']\n",
    "\n",
    "#valid_data_x=valid_data_x.fillna('')\n",
    "print(\"train_data:\",train_data.shape)\n",
    "print(\"valid_data_x:\",valid_data.shape)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## for bert"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "with open(base_path+'training.csv') as f:\n",
    "    data = f.read().replace(',', '\\t')\n",
    "with open(base_path+'train.tsv','w') as f:\n",
    "    f.write(data)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "with open(base_path+'testing.csv') as f:\n",
    "    data = f.read().replace(',', '\\t')\n",
    "with open(base_path+'test.tsv','w') as f:\n",
    "    f.write(data)\n"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## for other models"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>label</th>\n",
       "      <th>sentence</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>2</td>\n",
       "      <td>合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>公司经工商管理部门核准的经营范围为“投资咨询、经济信息咨询，企业管理咨询，品牌推广策划，公共...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>该公司的主营业务为在中国境内(港、澳、台除外)开展保险代理销售，依托于自身的产品研究能力和专...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   label                                           sentence\n",
       "0      2  合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业...\n",
       "1      2  公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。\n",
       "2      1  公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖...\n",
       "3      2  公司经工商管理部门核准的经营范围为“投资咨询、经济信息咨询，企业管理咨询，品牌推广策划，公共...\n",
       "4      2  该公司的主营业务为在中国境内(港、澳、台除外)开展保险代理销售，依托于自身的产品研究能力和专..."
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "train_data.columns = ['label', 'sentence']\n",
    "train_data.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 62,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>label</th>\n",
       "      <th>sentence</th>\n",
       "      <th>words</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>2</td>\n",
       "      <td>合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。</td>\n",
       "      <td>合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。</td>\n",
       "      <td>公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖商业定位及策划、商业设计、销售代理、招商代理电子商务、以及商业地产运管服务；同时开展应用互联网电商模式，采取O2O线上导流线下服务方式进行住宅类业务的创新营销服务。公司的业务板块包括商业地产策划顾问、专业招商及运营管理、代理销售、麦吉铺O2O电子商务。</td>\n",
       "      <td>公司 立足于 商业地产 服务 ， 致力于 为 商业地产 开发 、 销售 、 运营 全 产业链 提供 一整套 增值 服务 ， 业务 覆盖 商业 定位 及 策划 、 商业 设计 、 销售 代理 、 招商 代理 电子商务 、 以及 商业地产 运管 服务 ； 同时 开展 应用 互联网 电商 模式 ， 采取 O2O 线上 导流 线下 服务 方式 进行 住宅 类 业务 的 创新 营销 服务 。 公司 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>公司经工商管理部门核准的经营范围为“投资咨询、经济信息咨询，企业管理咨询，品牌推广策划，公共关系策划，文化交流策划咨询，企业形象策划，图文设计，会展服务（依法须经批准的项目，经相关部门批准后方可开展经营活动）”。公司的主营业务为：为国内上市公司提供投资者关系顾问服务。根据公司的主营业务，按照《国民经济行业分类》（GBT4754-2011），公司属于“商务服务业（L72）”分类下的“社会经济...</td>\n",
       "      <td>公司 经 工商管理 部门 核准 的 经营范围 为 “ 投资 咨询 、 经济 信息 咨询 ， 企业 管理 咨询 ， 品牌 推广 策划 ， 公共关系 策划 ， 文化交流 策划 咨询 ， 企业形象 策划 ， 图文 设计 ， 会展 服务 （ 依法 须 经 批准 的 项目 ， 经 相关 部门 批准 后方 可 开展 经营 活动 ） ” 。 公司 的 主营业务 为 ： 为 国内 上市公司 提供 投资者 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>该公司的主营业务为在中国境内(港、澳、台除外)开展保险代理销售，依托于自身的产品研究能力和专业化服务能力，通过为团体或个人保险受众提供投保需求分析、投保方案制定、保险理赔、保单保全等一站式服务，最终为保险公司完成人身保险及财产保险等保险产品的代理销售综合服务。公司自成立以来，已与中国人民人寿保险股份有限公司、中德安联人寿保险有限公司、中英人寿保险有限公司、阳光人寿保险股份有限公司、中意人寿...</td>\n",
       "      <td>该 公司 的 主营业务 为 在 中国 境内 ( 港 、 澳 、 台 除外 ) 开展 保险代理 销售 ， 依托 于 自身 的 产品 研究 能力 和 专业化 服务 能力 ， 通过 为 团体 或 个人保险 受众 提供 投保 需求 分析 、 投保 方案 制定 、 保险 理赔 、 保单 保全 等 一站式 服务 ， 最终 为 保险公司 完成 人身保险 及 财产保险 等 保险产品 的 代理 销售 综合 ...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   label  \\\n",
       "0      2   \n",
       "1      2   \n",
       "2      1   \n",
       "3      2   \n",
       "4      2   \n",
       "\n",
       "                                                                                                                                                                                                  sentence  \\\n",
       "0                      合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。   \n",
       "1                                                                                                                                                        公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。   \n",
       "2                             公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖商业定位及策划、商业设计、销售代理、招商代理电子商务、以及商业地产运管服务；同时开展应用互联网电商模式，采取O2O线上导流线下服务方式进行住宅类业务的创新营销服务。公司的业务板块包括商业地产策划顾问、专业招商及运营管理、代理销售、麦吉铺O2O电子商务。   \n",
       "3  公司经工商管理部门核准的经营范围为“投资咨询、经济信息咨询，企业管理咨询，品牌推广策划，公共关系策划，文化交流策划咨询，企业形象策划，图文设计，会展服务（依法须经批准的项目，经相关部门批准后方可开展经营活动）”。公司的主营业务为：为国内上市公司提供投资者关系顾问服务。根据公司的主营业务，按照《国民经济行业分类》（GBT4754-2011），公司属于“商务服务业（L72）”分类下的“社会经济...   \n",
       "4  该公司的主营业务为在中国境内(港、澳、台除外)开展保险代理销售，依托于自身的产品研究能力和专业化服务能力，通过为团体或个人保险受众提供投保需求分析、投保方案制定、保险理赔、保单保全等一站式服务，最终为保险公司完成人身保险及财产保险等保险产品的代理销售综合服务。公司自成立以来，已与中国人民人寿保险股份有限公司、中德安联人寿保险有限公司、中英人寿保险有限公司、阳光人寿保险股份有限公司、中意人寿...   \n",
       "\n",
       "                                                                                                                                                                                                     words  \n",
       "0  合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...  \n",
       "1                                                                                                                             公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。  \n",
       "2  公司 立足于 商业地产 服务 ， 致力于 为 商业地产 开发 、 销售 、 运营 全 产业链 提供 一整套 增值 服务 ， 业务 覆盖 商业 定位 及 策划 、 商业 设计 、 销售 代理 、 招商 代理 电子商务 、 以及 商业地产 运管 服务 ； 同时 开展 应用 互联网 电商 模式 ， 采取 O2O 线上 导流 线下 服务 方式 进行 住宅 类 业务 的 创新 营销 服务 。 公司 ...  \n",
       "3  公司 经 工商管理 部门 核准 的 经营范围 为 “ 投资 咨询 、 经济 信息 咨询 ， 企业 管理 咨询 ， 品牌 推广 策划 ， 公共关系 策划 ， 文化交流 策划 咨询 ， 企业形象 策划 ， 图文 设计 ， 会展 服务 （ 依法 须 经 批准 的 项目 ， 经 相关 部门 批准 后方 可 开展 经营 活动 ） ” 。 公司 的 主营业务 为 ： 为 国内 上市公司 提供 投资者 ...  \n",
       "4  该 公司 的 主营业务 为 在 中国 境内 ( 港 、 澳 、 台 除外 ) 开展 保险代理 销售 ， 依托 于 自身 的 产品 研究 能力 和 专业化 服务 能力 ， 通过 为 团体 或 个人保险 受众 提供 投保 需求 分析 、 投保 方案 制定 、 保险 理赔 、 保单 保全 等 一站式 服务 ， 最终 为 保险公司 完成 人身保险 及 财产保险 等 保险产品 的 代理 销售 综合 ...  "
      ]
     },
     "execution_count": 62,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#use jieba to split sentence into words\n",
    "words = [None]*len(train_data)\n",
    "#print(words)\n",
    "i=0\n",
    "for row in train_data['sentence']:\n",
    "    seg_list = jieba.cut(row)\n",
    "    words[i] = (\" \".join(seg_list))\n",
    "    #print(i, words[i])\n",
    "    i+=1\n",
    "\n",
    "train_data['words'] = words\n",
    "train_data.head()\n",
    "#seg_list = jieba.cut(\"他来到了网易杭研大厦\")\n",
    "#print(\", \".join(seg_list))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>index</th>\n",
       "      <th>sentence</th>\n",
       "      <th>words</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>经工商登记机关核准，本公司的经营范围包括：许可经营项目：面向“三农”发放贷款、提供融资性担保...</td>\n",
       "      <td>经 工商登记 机关 核准 ， 本 公司 的 经营范围 包括 ： 许可 经营项目 ： 面向 “...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司主营业务是从事保险标的出险后的查勘、检验和估损理算等保险中介服务。公司及子公司中平评估致...</td>\n",
       "      <td>公司 主营业务 是 从事 保险 标的 出险 后 的 查勘 、 检验 和 估损 理算 等 保险...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>3</td>\n",
       "      <td>公司是一家专业的私募股权投资管理机构，主营业务是私募股权投资管理，即通过私募方式向基金出资人...</td>\n",
       "      <td>公司 是 一家 专业 的 私募 股权 投资 管理机构 ， 主营业务 是 私募 股权 投资 管...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>4</td>\n",
       "      <td>公司专注于证券投资咨询服务，主要为客户提供证券投资资讯类产品，通过市场分析、信息整合、投资标...</td>\n",
       "      <td>公司 专注 于 证券 投资 咨询服务 ， 主要 为 客户 提供 证券 投资 资讯 类产品 ，...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>5</td>\n",
       "      <td>公司主要业务为科技园区的建设、管理与运营，主要包括科技物业服务、科技股权投资、科技产业培育及...</td>\n",
       "      <td>公司 主要 业务 为 科技园区 的 建设 、 管理 与 运营 ， 主要 包括 科技 物业 服...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   index                                           sentence  \\\n",
       "0      1  经工商登记机关核准，本公司的经营范围包括：许可经营项目：面向“三农”发放贷款、提供融资性担保...   \n",
       "1      2  公司主营业务是从事保险标的出险后的查勘、检验和估损理算等保险中介服务。公司及子公司中平评估致...   \n",
       "2      3  公司是一家专业的私募股权投资管理机构，主营业务是私募股权投资管理，即通过私募方式向基金出资人...   \n",
       "3      4  公司专注于证券投资咨询服务，主要为客户提供证券投资资讯类产品，通过市场分析、信息整合、投资标...   \n",
       "4      5  公司主要业务为科技园区的建设、管理与运营，主要包括科技物业服务、科技股权投资、科技产业培育及...   \n",
       "\n",
       "                                               words  \n",
       "0  经 工商登记 机关 核准 ， 本 公司 的 经营范围 包括 ： 许可 经营项目 ： 面向 “...  \n",
       "1  公司 主营业务 是 从事 保险 标的 出险 后 的 查勘 、 检验 和 估损 理算 等 保险...  \n",
       "2  公司 是 一家 专业 的 私募 股权 投资 管理机构 ， 主营业务 是 私募 股权 投资 管...  \n",
       "3  公司 专注 于 证券 投资 咨询服务 ， 主要 为 客户 提供 证券 投资 资讯 类产品 ，...  \n",
       "4  公司 主要 业务 为 科技园区 的 建设 、 管理 与 运营 ， 主要 包括 科技 物业 服...  "
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "words = [None]*len(valid_data)\n",
    "#print(words)\n",
    "i=0\n",
    "for row in valid_data['sentence']:\n",
    "    seg_list = jieba.cut(row)\n",
    "    words[i] = (\" \".join(seg_list))\n",
    "    #print(i, words[i])\n",
    "    i+=1\n",
    "\n",
    "valid_data['words'] = words\n",
    "valid_data.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>index</th>\n",
       "      <th>words</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>经 工商登记 机关 核准 ， 本 公司 的 经营范围 包括 ： 许可 经营项目 ： 面向 “...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司 主营业务 是 从事 保险 标的 出险 后 的 查勘 、 检验 和 估损 理算 等 保险...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>3</td>\n",
       "      <td>公司 是 一家 专业 的 私募 股权 投资 管理机构 ， 主营业务 是 私募 股权 投资 管...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>4</td>\n",
       "      <td>公司 专注 于 证券 投资 咨询服务 ， 主要 为 客户 提供 证券 投资 资讯 类产品 ，...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>5</td>\n",
       "      <td>公司 主要 业务 为 科技园区 的 建设 、 管理 与 运营 ， 主要 包括 科技 物业 服...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   index                                              words\n",
       "0      1  经 工商登记 机关 核准 ， 本 公司 的 经营范围 包括 ： 许可 经营项目 ： 面向 “...\n",
       "1      2  公司 主营业务 是 从事 保险 标的 出险 后 的 查勘 、 检验 和 估损 理算 等 保险...\n",
       "2      3  公司 是 一家 专业 的 私募 股权 投资 管理机构 ， 主营业务 是 私募 股权 投资 管...\n",
       "3      4  公司 专注 于 证券 投资 咨询服务 ， 主要 为 客户 提供 证券 投资 资讯 类产品 ，...\n",
       "4      5  公司 主要 业务 为 科技园区 的 建设 、 管理 与 运营 ， 主要 包括 科技 物业 服..."
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "valid_data_out = valid_data.drop('sentence',1)\n",
    "#valid_data_out.head()\n",
    "valid_data_out.to_csv('test_set.csv',header=False,index=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "train_data = train_data.drop('sentence',1)\n",
    "train_data.to_csv('train_set.csv',header=False,index=False)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## W2V"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 33,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import os\n",
    "import re\n",
    "import pickle\n",
    "import pandas as pd\n",
    "import seaborn as sns\n",
    "import matplotlib\n",
    "import matplotlib.pyplot as plt\n",
    "import jieba\n",
    "# from wordcloud import WordCloud, STOPWORDS\n",
    "from gensim.models.word2vec import Word2Vec\n",
    "from tqdm import tqdm_notebook as tqdm\n",
    "\n",
    "pd.set_option('display.max_seq_items', 100)\n",
    "pd.set_option('display.max_rows', 100)\n",
    "pd.set_option('max_colwidth', 200)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "base_path='data/'\n",
    "\n",
    "train_data=pd.read_csv(base_path+'training.csv', encoding=\"utf-8\",header=None)\n",
    "test_data=pd.read_csv(base_path+'testing.csv',encoding=\"utf-8\",header =None)\n",
    "test_data.columns = ['index', 'sentence']\n",
    "train_data.columns = ['label', 'sentence']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "Building prefix dict from the default dictionary ...\n",
      "Dumping model to file cache /var/folders/b0/psrkrkg96xv505_m9mm9mrfh0000gn/T/jieba.cache\n",
      "Loading model cost 0.927 seconds.\n",
      "Prefix dict has been built succesfully.\n"
     ]
    },
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>label</th>\n",
       "      <th>sentence</th>\n",
       "      <th>words</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>2</td>\n",
       "      <td>合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。</td>\n",
       "      <td>合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。</td>\n",
       "      <td>公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖商业定位及策划、商业设计、销售代理、招商代理电子商务、以及商业地产运管服务；同时开展应用互联网电商模式，采取O2O线上导流线下服务方式进行住宅类业务的创新营销服务。公司的业务板块包括商业地产策划顾问、专业招商及运营管理、代理销售、麦吉铺O2O电子商务。</td>\n",
       "      <td>公司 立足于 商业地产 服务 ， 致力于 为 商业地产 开发 、 销售 、 运营 全 产业链 提供 一整套 增值 服务 ， 业务 覆盖 商业 定位 及 策划 、 商业 设计 、 销售 代理 、 招商 代理 电子商务 、 以及 商业地产 运管 服务 ； 同时 开展 应用 互联网 电商 模式 ， 采取 O2O 线上 导流 线下 服务 方式 进行 住宅 类 业务 的 创新 营销 服务 。 公司 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>2</td>\n",
       "      <td>公司经工商管理部门核准的经营范围为“投资咨询、经济信息咨询，企业管理咨询，品牌推广策划，公共关系策划，文化交流策划咨询，企业形象策划，图文设计，会展服务（依法须经批准的项目，经相关部门批准后方可开展经营活动）”。公司的主营业务为：为国内上市公司提供投资者关系顾问服务。根据公司的主营业务，按照《国民经济行业分类》（GBT4754-2011），公司属于“商务服务业（L72）”分类下的“社会经济...</td>\n",
       "      <td>公司 经 工商管理 部门 核准 的 经营范围 为 “ 投资 咨询 、 经济 信息 咨询 ， 企业 管理 咨询 ， 品牌 推广 策划 ， 公共关系 策划 ， 文化交流 策划 咨询 ， 企业形象 策划 ， 图文 设计 ， 会展 服务 （ 依法 须 经 批准 的 项目 ， 经 相关 部门 批准 后方 可 开展 经营 活动 ） ” 。 公司 的 主营业务 为 ： 为 国内 上市公司 提供 投资者 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>2</td>\n",
       "      <td>该公司的主营业务为在中国境内(港、澳、台除外)开展保险代理销售，依托于自身的产品研究能力和专业化服务能力，通过为团体或个人保险受众提供投保需求分析、投保方案制定、保险理赔、保单保全等一站式服务，最终为保险公司完成人身保险及财产保险等保险产品的代理销售综合服务。公司自成立以来，已与中国人民人寿保险股份有限公司、中德安联人寿保险有限公司、中英人寿保险有限公司、阳光人寿保险股份有限公司、中意人寿...</td>\n",
       "      <td>该 公司 的 主营业务 为 在 中国 境内 ( 港 、 澳 、 台 除外 ) 开展 保险代理 销售 ， 依托 于 自身 的 产品 研究 能力 和 专业化 服务 能力 ， 通过 为 团体 或 个人保险 受众 提供 投保 需求 分析 、 投保 方案 制定 、 保险 理赔 、 保单 保全 等 一站式 服务 ， 最终 为 保险公司 完成 人身保险 及 财产保险 等 保险产品 的 代理 销售 综合 ...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   label  \\\n",
       "0      2   \n",
       "1      2   \n",
       "2      1   \n",
       "3      2   \n",
       "4      2   \n",
       "\n",
       "                                                                                                                                                                                                  sentence  \\\n",
       "0                      合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。   \n",
       "1                                                                                                                                                        公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。   \n",
       "2                             公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖商业定位及策划、商业设计、销售代理、招商代理电子商务、以及商业地产运管服务；同时开展应用互联网电商模式，采取O2O线上导流线下服务方式进行住宅类业务的创新营销服务。公司的业务板块包括商业地产策划顾问、专业招商及运营管理、代理销售、麦吉铺O2O电子商务。   \n",
       "3  公司经工商管理部门核准的经营范围为“投资咨询、经济信息咨询，企业管理咨询，品牌推广策划，公共关系策划，文化交流策划咨询，企业形象策划，图文设计，会展服务（依法须经批准的项目，经相关部门批准后方可开展经营活动）”。公司的主营业务为：为国内上市公司提供投资者关系顾问服务。根据公司的主营业务，按照《国民经济行业分类》（GBT4754-2011），公司属于“商务服务业（L72）”分类下的“社会经济...   \n",
       "4  该公司的主营业务为在中国境内(港、澳、台除外)开展保险代理销售，依托于自身的产品研究能力和专业化服务能力，通过为团体或个人保险受众提供投保需求分析、投保方案制定、保险理赔、保单保全等一站式服务，最终为保险公司完成人身保险及财产保险等保险产品的代理销售综合服务。公司自成立以来，已与中国人民人寿保险股份有限公司、中德安联人寿保险有限公司、中英人寿保险有限公司、阳光人寿保险股份有限公司、中意人寿...   \n",
       "\n",
       "                                                                                                                                                                                                     words  \n",
       "0  合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...  \n",
       "1                                                                                                                             公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。  \n",
       "2  公司 立足于 商业地产 服务 ， 致力于 为 商业地产 开发 、 销售 、 运营 全 产业链 提供 一整套 增值 服务 ， 业务 覆盖 商业 定位 及 策划 、 商业 设计 、 销售 代理 、 招商 代理 电子商务 、 以及 商业地产 运管 服务 ； 同时 开展 应用 互联网 电商 模式 ， 采取 O2O 线上 导流 线下 服务 方式 进行 住宅 类 业务 的 创新 营销 服务 。 公司 ...  \n",
       "3  公司 经 工商管理 部门 核准 的 经营范围 为 “ 投资 咨询 、 经济 信息 咨询 ， 企业 管理 咨询 ， 品牌 推广 策划 ， 公共关系 策划 ， 文化交流 策划 咨询 ， 企业形象 策划 ， 图文 设计 ， 会展 服务 （ 依法 须 经 批准 的 项目 ， 经 相关 部门 批准 后方 可 开展 经营 活动 ） ” 。 公司 的 主营业务 为 ： 为 国内 上市公司 提供 投资者 ...  \n",
       "4  该 公司 的 主营业务 为 在 中国 境内 ( 港 、 澳 、 台 除外 ) 开展 保险代理 销售 ， 依托 于 自身 的 产品 研究 能力 和 专业化 服务 能力 ， 通过 为 团体 或 个人保险 受众 提供 投保 需求 分析 、 投保 方案 制定 、 保险 理赔 、 保单 保全 等 一站式 服务 ， 最终 为 保险公司 完成 人身保险 及 财产保险 等 保险产品 的 代理 销售 综合 ...  "
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#use jieba to split sentence into words\n",
    "words = [None]*len(train_data)\n",
    "#print(words)\n",
    "i=0\n",
    "for row in train_data['sentence']:\n",
    "    seg_list = jieba.cut(row)\n",
    "    words[i] = (\" \".join(seg_list))\n",
    "    #print(i, words[i])\n",
    "    i+=1\n",
    "\n",
    "train_data['words'] = words\n",
    "train_data.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>index</th>\n",
       "      <th>sentence</th>\n",
       "      <th>words</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>经工商登记机关核准，本公司的经营范围包括：许可经营项目：面向“三农”发放贷款、提供融资性担保、开展金融机构业务代理以及其他业务。公司主要业务包括：面向“三农”发放小额贷款业务、应付款保函业务以及提供融资性担保业务。</td>\n",
       "      <td>经 工商登记 机关 核准 ， 本 公司 的 经营范围 包括 ： 许可 经营项目 ： 面向 “ 三农 ” 发放贷款 、 提供 融资 性 担保 、 开展 金融机构 业务 代理 以及 其他 业务 。 公司 主要 业务 包括 ： 面向 “ 三农 ” 发放 小额贷款 业务 、 应付款 保函 业务 以及 提供 融资 性 担保 业务 。</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司主营业务是从事保险标的出险后的查勘、检验和估损理算等保险中介服务。公司及子公司中平评估致力于为保险公司、被保险人提供专业的车辆、企业财产、货物运输、船舶损失等评估服务，以及为保险公司、法院、交警部门、个人等提供专业、合法的价格评估服务。中联鉴定的主营业务是为法院、交警部门、保险公司、律师事务所或其他个人等提供法医临床类、交通事故类、保险理赔类司法鉴定服务，对保险理赔、司法诉讼过程中的专...</td>\n",
       "      <td>公司 主营业务 是 从事 保险 标的 出险 后 的 查勘 、 检验 和 估损 理算 等 保险 中介 服务 。 公司 及 子公司 中平 评估 致力于 为 保险公司 、 被保险人 提供 专业 的 车辆 、 企业 财产 、 货物运输 、 船舶 损失 等 评估 服务 ， 以及 为 保险公司 、 法院 、 交警部门 、 个人 等 提供 专业 、 合法 的 价格 评估 服务 。 中联 鉴定 的 主营业...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>3</td>\n",
       "      <td>公司是一家专业的私募股权投资管理机构，主营业务是私募股权投资管理，即通过私募方式向基金出资人募集基金，将募集的资金投资于企业的股权，最终通过股权的增值为基金赚取投资收益，本公司则向基金收取管理费以及管理报酬。公司的业务基本通过昆吾九鼎实施。公司报告期内99%以上的营业收入来自于昆吾九鼎。因此，昆吾九鼎的业务基本就是公司的全部业务，本公开转让说明书披露的所有业务基本来自昆吾九鼎。</td>\n",
       "      <td>公司 是 一家 专业 的 私募 股权 投资 管理机构 ， 主营业务 是 私募 股权 投资 管理 ， 即 通过 私募 方式 向 基金 出资人 募集 基金 ， 将 募集 的 资金 投资 于 企业 的 股权 ， 最终 通过 股权 的 增值 为 基金 赚取 投资收益 ， 本 公司 则 向 基金 收取 管理费 以及 管理 报酬 。 公司 的 业务 基本 通过 昆吾 九鼎 实施 。 公司 报告 期内 ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>4</td>\n",
       "      <td>公司专注于证券投资咨询服务，主要为客户提供证券投资资讯类产品，通过市场分析、信息整合、投资标的推荐、模拟操盘、在线微博交流等方式为投资方提供全面实时实用的投资咨讯，具体产品主要包括：1.投资顾问产品：金沙宝理财计划千足金和金沙宝理财计划万足金；2.中金在线网络平台专栏服务。近年来，公司不断拓展业务，依托其行业丰富经验、专业的投顾团队、深刻的市场需求把握，与移动互联网相结合，将市场从高净值的...</td>\n",
       "      <td>公司 专注 于 证券 投资 咨询服务 ， 主要 为 客户 提供 证券 投资 资讯 类产品 ， 通过 市场 分析 、 信息 整合 、 投资 标的 推荐 、 模拟 操盘 、 在线 微博 交流 等 方式 为 投资方 提供 全面 实时 实用 的 投资 咨讯 ， 具体 产品 主要 包括 ： 1 . 投资 顾问 产品 ： 金沙 宝 理财 计划 千 足金 和 金沙 宝 理财 计划 万 足金 ； 2 . ...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>5</td>\n",
       "      <td>公司主要业务为科技园区的建设、管理与运营，主要包括科技物业服务、科技股权投资、科技产业培育及科技创业服务为核心的智慧园区系统解决方案。公司是浙江省首家企业化运作的科技园区，自成立以来以信息服务业为产业定位，以“营造创业创新环境、培育企业快速成长，带动区域经济提升”为发展宗旨，以“科技园区开发运营、中小企业创业成长服务、科技产业整合创新发展”为产业内涵，致力于成为专业的科技园区开发运营综合服...</td>\n",
       "      <td>公司 主要 业务 为 科技园区 的 建设 、 管理 与 运营 ， 主要 包括 科技 物业 服务 、 科技 股权 投资 、 科技产业 培育 及 科技 创业 服务 为 核心 的 智慧 园区 系统 解决方案 。 公司 是 浙江省 首家 企业化 运作 的 科技园区 ， 自 成立 以来 以 信息 服务业 为 产业 定位 ， 以 “ 营造 创业 创新 环境 、 培育 企业 快速 成长 ， 带动 区域 ...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   index  \\\n",
       "0      1   \n",
       "1      2   \n",
       "2      3   \n",
       "3      4   \n",
       "4      5   \n",
       "\n",
       "                                                                                                                                                                                                  sentence  \\\n",
       "0                                                                                              经工商登记机关核准，本公司的经营范围包括：许可经营项目：面向“三农”发放贷款、提供融资性担保、开展金融机构业务代理以及其他业务。公司主要业务包括：面向“三农”发放小额贷款业务、应付款保函业务以及提供融资性担保业务。   \n",
       "1  公司主营业务是从事保险标的出险后的查勘、检验和估损理算等保险中介服务。公司及子公司中平评估致力于为保险公司、被保险人提供专业的车辆、企业财产、货物运输、船舶损失等评估服务，以及为保险公司、法院、交警部门、个人等提供专业、合法的价格评估服务。中联鉴定的主营业务是为法院、交警部门、保险公司、律师事务所或其他个人等提供法医临床类、交通事故类、保险理赔类司法鉴定服务，对保险理赔、司法诉讼过程中的专...   \n",
       "2           公司是一家专业的私募股权投资管理机构，主营业务是私募股权投资管理，即通过私募方式向基金出资人募集基金，将募集的资金投资于企业的股权，最终通过股权的增值为基金赚取投资收益，本公司则向基金收取管理费以及管理报酬。公司的业务基本通过昆吾九鼎实施。公司报告期内99%以上的营业收入来自于昆吾九鼎。因此，昆吾九鼎的业务基本就是公司的全部业务，本公开转让说明书披露的所有业务基本来自昆吾九鼎。   \n",
       "3  公司专注于证券投资咨询服务，主要为客户提供证券投资资讯类产品，通过市场分析、信息整合、投资标的推荐、模拟操盘、在线微博交流等方式为投资方提供全面实时实用的投资咨讯，具体产品主要包括：1.投资顾问产品：金沙宝理财计划千足金和金沙宝理财计划万足金；2.中金在线网络平台专栏服务。近年来，公司不断拓展业务，依托其行业丰富经验、专业的投顾团队、深刻的市场需求把握，与移动互联网相结合，将市场从高净值的...   \n",
       "4  公司主要业务为科技园区的建设、管理与运营，主要包括科技物业服务、科技股权投资、科技产业培育及科技创业服务为核心的智慧园区系统解决方案。公司是浙江省首家企业化运作的科技园区，自成立以来以信息服务业为产业定位，以“营造创业创新环境、培育企业快速成长，带动区域经济提升”为发展宗旨，以“科技园区开发运营、中小企业创业成长服务、科技产业整合创新发展”为产业内涵，致力于成为专业的科技园区开发运营综合服...   \n",
       "\n",
       "                                                                                                                                                                                                     words  \n",
       "0                                       经 工商登记 机关 核准 ， 本 公司 的 经营范围 包括 ： 许可 经营项目 ： 面向 “ 三农 ” 发放贷款 、 提供 融资 性 担保 、 开展 金融机构 业务 代理 以及 其他 业务 。 公司 主要 业务 包括 ： 面向 “ 三农 ” 发放 小额贷款 业务 、 应付款 保函 业务 以及 提供 融资 性 担保 业务 。  \n",
       "1  公司 主营业务 是 从事 保险 标的 出险 后 的 查勘 、 检验 和 估损 理算 等 保险 中介 服务 。 公司 及 子公司 中平 评估 致力于 为 保险公司 、 被保险人 提供 专业 的 车辆 、 企业 财产 、 货物运输 、 船舶 损失 等 评估 服务 ， 以及 为 保险公司 、 法院 、 交警部门 、 个人 等 提供 专业 、 合法 的 价格 评估 服务 。 中联 鉴定 的 主营业...  \n",
       "2  公司 是 一家 专业 的 私募 股权 投资 管理机构 ， 主营业务 是 私募 股权 投资 管理 ， 即 通过 私募 方式 向 基金 出资人 募集 基金 ， 将 募集 的 资金 投资 于 企业 的 股权 ， 最终 通过 股权 的 增值 为 基金 赚取 投资收益 ， 本 公司 则 向 基金 收取 管理费 以及 管理 报酬 。 公司 的 业务 基本 通过 昆吾 九鼎 实施 。 公司 报告 期内 ...  \n",
       "3  公司 专注 于 证券 投资 咨询服务 ， 主要 为 客户 提供 证券 投资 资讯 类产品 ， 通过 市场 分析 、 信息 整合 、 投资 标的 推荐 、 模拟 操盘 、 在线 微博 交流 等 方式 为 投资方 提供 全面 实时 实用 的 投资 咨讯 ， 具体 产品 主要 包括 ： 1 . 投资 顾问 产品 ： 金沙 宝 理财 计划 千 足金 和 金沙 宝 理财 计划 万 足金 ； 2 . ...  \n",
       "4  公司 主要 业务 为 科技园区 的 建设 、 管理 与 运营 ， 主要 包括 科技 物业 服务 、 科技 股权 投资 、 科技产业 培育 及 科技 创业 服务 为 核心 的 智慧 园区 系统 解决方案 。 公司 是 浙江省 首家 企业化 运作 的 科技园区 ， 自 成立 以来 以 信息 服务业 为 产业 定位 ， 以 “ 营造 创业 创新 环境 、 培育 企业 快速 成长 ， 带动 区域 ...  "
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "words = [None]*len(test_data)\n",
    "#print(words)\n",
    "i=0\n",
    "for row in test_data['sentence']:\n",
    "    seg_list = jieba.cut(row)\n",
    "    words[i] = (\" \".join(seg_list))\n",
    "    #print(i, words[i])\n",
    "    i+=1\n",
    "\n",
    "test_data['words'] = words\n",
    "test_data.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "<matplotlib.axes._subplots.AxesSubplot at 0x1a22a10cf8>"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    },
    {
     "data": {
      "image/png": "iVBORw0KGgoAAAANSUhEUgAAAm4AAAFvCAYAAADzHEcrAAAABHNCSVQICAgIfAhkiAAAAAlwSFlz\nAAALEgAACxIB0t1+/AAAADl0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uIDIuMi4yLCBo\ndHRwOi8vbWF0cGxvdGxpYi5vcmcvhp/UCwAAHqFJREFUeJzt3XuUZWV55/Hvj4uG9oKxqZagE5q1\nkGAuGExHRERggjN4SRRnjGGxzNJomBgVMSwUTQgZL0kbZeloxIQxSnTCJRETzXQWeAU1akjjhEgC\nhAm2GjvEQujmNqTBPPPH3iccKgc41X2qznn7fD9r1Xq79vvsU8+mOFW/2tdUFZIkSZp9e0y7AUmS\nJI3H4CZJktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIkNcLgJkmS\n1Ii9pt3AStlvv/1q/fr1025DkiTpIV111VU3V9XCQ9XttsFt/fr1bN68edptSJIkPaQk3xinzkOl\nkiRJjTC4SZIkNcLgJkmS1AiDmyRJUiMMbpIkSY0wuEmSJDXC4CZJktQIg5skSVIjDG6SJEmNMLhJ\nkiQ1wuAmSZLUCIObJElSIwxukiRJjdhr2g3MkvVnblrxr7Fl43NX/GtIkqTdk8FtN7QaARQMoZIk\nrTYPlUqSJDXC4CZJktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIk\nNWLZwS3JE5N87wHmnpbkiiR3Jdme5JIkPzii7ul93R1Jbk7yB0nW7mydJEnSPBjrkVdJ9gAOBp4C\nvJURgS/JIcBngDuAs4EfAF4LPDHJ4VX1vb7uycBngZuAs4B1wOnAjyZ5WlXds5w6SZKkeTHus0rX\nAdc/RM1pwBrgp6rqKwBJHg28HDgBGDxA8x3AnsCzquqGvm4bsBE4CfjwMuskSZLmwriHSm8Bnt1/\nfO0Bao4AbhuEtt5V/XgoQJL9geOBzwzCWO+D/XjycuokSZLmyVh73KpqB3ApQJIzH6Ds9+n2kA07\noB9v6cejgABXLnn9xSTfBI5cZp0kSdLcGPdQ6UOqqnOHP0/yKOClwF3AZf3i9f24dcRL3AT8YJLH\njltXVbeMmJckSdotrcjtQJI8HLgIeAJwRlUNAtiafhx1YcGOoZpx6yRJkubGxINbkn3pDqs+B3jT\nkj1xd/bjviNW3XeoZty6pV/7lCSbk2xeXFxcdu+SJEmzbKLBLck64IvA0cB/q6rfWlJyYz+uG7H6\nArC9qm5dRt39VNV5VbWhqjYsLCzs1DZIkiTNqokFtyRr6M5lOwR4YVWdN6LsS0ABz1yy7kHA/v38\ncuokSZLmxiT3uP0m8OPAK6rqE6MKquo7dOHuqUkOHZo6qR8vWE6dJEnSPJnIVaVJDgBeCWwB9kzy\n0iUlN1XVpf2/3wAcB1yW5N3c90SEq+guaGCZdZIkSXNhUrcDOQR4GN1tPD40Yv4K+vvAVdXfJDmO\n7gkIbwXupgtir6uqewcrjFsnSZI0L5Yd3Krq2BHLLqe7Ye64r/Fl4JhJ1UmSJM2DFbmPmyRJkibP\n4CZJktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIkNcLgJkmS1AiD\nmyRJUiMMbpIkSY0wuEmSJDXC4CZJktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxu\nkiRJjTC4SZIkNcLgJkmS1AiDmyRJUiMMbpIkSY0wuEmSJDXC4CZJktQIg5skSVIjDG6SJEmNMLhJ\nkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIkNcLgJkmS1AiDmyRJUiOWHdySPDHJ9x5g7ulJrkhy\nR5Kbk/xBkrUrXSdJkjQP9hqnKMkewMHAU4C3MiLwJXky8FngJuAsYB1wOvCjSZ5WVfesRJ0kSdK8\nGCu40YWm6x+i5h3AnsCzquoGgCTbgI3AScCHV6hOkiRpLox7qPQW4Nn9x9eWTibZHzge+MwgZPU+\n2I8nr0SdJEnSPBkruFXVjqq6tKoupQtxSx0FBLhyyXqLwDeBI1eoTpIkaW5M6qrS9f24dcTcTcCj\nkjx2BeokSZLmxqSC25p+HHXBwI6hmknX3U+SU5JsTrJ5cXHxIZuWJElqyaSC2539uO+IuX2HaiZd\ndz9VdV5VbaiqDQsLCw/ZtCRJUksmFdxu7Md1I+YWgO1VdesK1EmSJM2NSQW3LwEFPHN4YZKDgP37\n+ZWokyRJmhsTCW5V9R3gMuCpSQ4dmjqpHy9YiTpJkqR5Mu4NeMfxBuA44LIk7+a+Jx1cBVy0gnWS\nJElzYWIPma+qv6ELWlvoHot1Cl3A+s9Vde9K1UmSJM2LZe9xq6pjH2Tuy8AxY7zGROskSZLmwcT2\nuEmSJGllGdwkSZIaYXCTJElqhMFNkiSpEQY3SZKkRhjcJEmSGmFwkyRJaoTBTZIkqREGN0mSpEYY\n3CRJkhphcJMkSWqEwU2SJKkRBjdJkqRGGNwkSZIaYXCTJElqhMFNkiSpEQY3SZKkRhjcJEmSGmFw\nkyRJaoTBTZIkqREGN0mSpEYY3CRJkhphcJMkSWqEwU2SJKkRBjdJkqRGGNwkSZIaYXCTJElqhMFN\nkiSpEQY3SZKkRhjcJEmSGmFwkyRJaoTBTZIkqREGN0mSpEYY3CRJkhphcJMkSWrExINbkgOT/FGS\nxSRbk3woybolNU9KsinJ9iTbkvxpkvUjXmusOkmSpHmw1yRfLMkTgM3A3cBvAw8HTgOOTfLjVbU9\nyeOBL/SrbAT2BM4APp/ksKra1r/WWHWSJEnzYqLBDXgNsB9wdFV9ESDJdcAfAy8D3g2cDawFjquq\ny/uaG4CLgFOBN/evNW6dJEnSXJj0odJD+/GqoWWDfx+aZG/gxcD1gzDWuwTYDpwMMG6dJEnSPJn0\nHreb+nF/4Ov9vw8YmjsMeDTw8eGVqureJFcDz0yyFlg/Tl1VfXfC/WvGrD9z06p8nS0bn7sqX0eS\npF0x6T1u5wJ3Ar+b5LAkPwm8C1gEfp8ukAFsHbHuIPQduIw6SZKkuTHR4FZVVwMvAo4BrgaupDt8\n+ryq+hawpi+9Z8TqO/pxzTLq7ifJKUk2J9m8uLi4cxshSZI0oyYa3JK8APgT4DLgJODn6QLcp5Ic\nSbc3DmDfEasPlt25jLr7qarzqmpDVW1YWFjYuY2QJEmaURM7xy3JnsAHgBuAE6vqX/vllwDfAN4H\n/EJfvm7ESwyS1hagxqyTJEmaG5Pc47aO7vYd1w1CG0BV3UUXsn4YuIbuqtCjh1dMsg9wOHBtVd26\njDpJkqS5McngtgjcDhyR5N/OP0vyA8CTgK9X1b3AhcABSY4fWvdEupv1XgDd1aPj1EmSJM2TiR0q\n7W/V8S7g14EvJvkIsDdwCvAI4O196VvoLmC4OMk76Z6I8HrgW8B7h15y3DpJkqS5MOn7uP0G8H/p\nnqBwNnAv8LfAa6tqE0BVbU3yDOAc4I1057N9FjitqrYPXmjcOkmSpHkx0eBWVQV8pP94sLrrgIe8\n4+m4dZIkSfNg0jfglSRJ0goxuEmSJDXC4CZJktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIOb\nJElSIwxukiRJjTC4SZIkNcLgJkmS1AiDmyRJUiMMbpIkSY0wuEmSJDXC4CZJktQIg5skSVIjDG6S\nJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIkNcLgJkmS1AiDmyRJUiMMbpIkSY0wuEmS\nJDXC4CZJktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIkNcLgJkmS\n1IiJB7ckr05yfZK7knw1yQlL5g9IcmGS7ya5Pcmnkxw+4nXGqpMkSZoXEw1uSc4C3gN8Dng98DBg\nU5Kn9fOPBK4Ang+cC/x34IeBK5KsH3qdseokSZLmyV6TeqEkjwd+DdhYVW/ql30SuB54JfAV4FTg\nYOBlVXV+X/OFfu7XgV/oX27cOkmSpLkxyT1uJ9HtYfu9wYKq+ntgAXhNv+glwO3AHw7V/CXwd8CL\nkjxsmXWSJElzY5LB7Si6sPWoJF9JcneS64Bjq+q2JGuBQ4G/rqp7lqy7GXgk8GPj1k2wb0mSpCZM\nMrgdBNwDfAL4K+BXgTXAxUmOANb3dVtHrHtTPx64jDpJkqS5Msng9kjgscC5VfWaqjqH7vDpHtwX\n4qALd0vt6Mc1y6j7d5KckmRzks2Li4s7sQmSJEmza5LBbRC0LhwsqKq/AO4CDgfu7BfvO2LdwbI7\nl1H371TVeVW1oao2LCwsLKN1SZKk2Texq0qB7/bj3UuW3wLsB9zYf75uxLqDlLUF+PqYdZIkSXNl\nknvc/rYf1y9Z/hjgH6tqW19zeH+ftmFPB24Drhm3boJ9S5IkNWGSwe3P+vFlgwX9jXcfCfxlv+gj\ndLcM+bmhmqcDPwj88dBVpOPWSZIkzY1JHirdRPfEhFcl+T7gWuBXgHuBt/c1vwO8AnhPkgOB7cDp\ndHvR3jL0WuPWSZIkzY2J7XGrqqJ7RNX7gJ8BfpPu9h0/XVVf62vuBI6hu2XIq4DfoLup7jFV9Y2h\n1xqrTpIkaZ5Mco8bVXU78Or+44FqtjJ0CHRX6yRJkubFRB8yL0mSpJVjcJMkSWqEwU2SJKkRBjdJ\nkqRGGNwkSZIaYXCTJElqhMFNkiSpEQY3SZKkRhjcJEmSGmFwkyRJaoTBTZIkqREGN0mSpEYY3CRJ\nkhphcJMkSWqEwU2SJKkRBjdJkqRGGNwkSZIaYXCTJElqhMFNkiSpEQY3SZKkRhjcJEmSGmFwkyRJ\naoTBTZIkqREGN0mSpEYY3CRJkhphcJMkSWqEwU2SJKkRBjdJkqRGGNwkSZIaYXCTJElqhMFNkiSp\nEQY3SZKkRhjcJEmSGmFwkyRJaoTBTZIkqRErGtySnJGkkpy/ZPmTkmxKsj3JtiR/mmT9iPXHqpMk\nSZoHe63UCyf5IeDNI5Y/HvhC/+lGYE/gDODzSQ6rqm3LqZMkSZoXKxLckuwBfAjYAXzfkumzgbXA\ncVV1eV9/A3ARcCr3hb1x6yRJkubCSh0qfR1wJN0esn+TZG/gxcD1gzDWuwTYDpy8nDpJkqR5MvHg\nluQQ4C3AB4BPLpk+DHg0cOXwwqq6F7gaOCTJ2mXUSZIkzY2JBrf+EOkHgZuB00eUrO/HrSPmburH\nA5dRJ0mSNDcmvcfttcBRwC9W1W0j5tf04z0j5nYM1Yxbdz9JTkmyOcnmxcXF8buWJElqwMSCW5KD\ngbcBHwOuTrI/sNBP79N//i/95/uOeInBsjv7j3Hq7qeqzquqDVW1YWFhYem0JElS0ya5x+0ZwD7A\nC4F/6j8G56j9bP/5Af3n60asP0haW4Abx6yTJEmaG5O8HcingGcvWfY44Hzg08A5wFeB3wCOHi5K\nsg9wOHBtVd2a5Ha6q0cftG6CvUuSJM28iQW3qvo28O3hZUNPOfh2VV3aL7sQ+KUkx1fVp/v5E4GH\nAxf0r3XvOHWSJEnzZMWenPAg3gK8CLg4yTvpnojweuBbwHt3ok6SJGkurHpwq6qtSZ5Bd+j0jUAB\nnwVOq6rty62TJEmaFysa3KpqC5ARy68DnjvG+mPVSZIkzYOVeuSVJEmSJszgJkmS1AiDmyRJUiMM\nbpIkSY0wuEmSJDXC4CZJktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4\nSZIkNcLgJkmS1AiDmyRJUiMMbpIkSY3Ya9oNSPNi/ZmbVvxrbNn43BX/GpKk6XGPmyRJUiMMbpIk\nSY0wuEmSJDXC4CZJktQIg5skSVIjvKpU0rJ5hawkTYd73CRJkhphcJMkSWqEwU2SJKkRBjdJkqRG\nGNwkSZIaYXCTJElqhMFNkiSpEQY3SZKkRhjcJEmSGmFwkyRJaoTBTZIkqRETf1ZpkkOBc4Bn0gXD\nvwBOr6qvDdU8CXgn8AyggMuB06pqy5LXGqtOknbGajxzFXzuqqTJmWhwS7KWLlw9AngHsCfweuBT\nSQ6pqtuSPB74Qr/Kxr7mDODzSQ6rqm39a41VJ0mSNC8mvcft5cDjgJOq6iKAJPcAbwFeArwPOBtY\nCxxXVZf3NTcAFwGnAm/uX2vcOkmSpLkw6XPcjujHTw4tu6ofD02yN/Bi4PpBGOtdAmwHTgYYt06S\nJGmeTDq4fQw4C7h1aNkB/XgLcBjwaODK4ZWq6l7gauCQ/nDruHWSJElzY6KHSqvqD4c/T7IX8Eq6\nCws+DhzUT20dsfpN/XggsH7Muu/uQruStNtYjQstvMhCmr4Vux1Ikj2A9wM/Abyjqr4KrOmn7xmx\nyo5+XLOMOkmSpLmxIsEtycOBC4BXAL8HnNlP3dmP+45Ybd+hmnHrln7dU5JsTrJ5cXFxZ1qXJEma\nWRMPbknWAJfSXVzw1qr6paqqfvrGflw3YtWFftyyjLr7qarzqmpDVW1YWFhYOi1JktS0Sd/HbQ+6\nKz+PAX65qt6/pOQauqtCj16y3j7A4cC1VXVrktvHqZtk75IkSbNu0nvcTgVOAM4eEdoGV4VeCByQ\n5PihqROBweHVseskSZLmycT2uPV7w34V2AZsTfLSJSV3VNVH6W7G+yLg4iTv5L6nK3wLeO9Q/bh1\nkiRJc2GSh0ofB+zX//sDI+a/AXy0qrYmeQbd80zfSHerkM/SPYN0+6B43DpJkqR5MbHg1j/4PWPW\nXgc85A2Bxq2TJEmaByt2HzdJkiRNlsFNkiSpERO9HYgkSbvKx3dJD8w9bpIkSY0wuEmSJDXC4CZJ\nktQIg5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIkNcLgJkmS1AiDmyRJ\nUiMMbpIkSY0wuEmSJDXC4CZJktSIvabdgCRJu6v1Z25a8a+xZeNzV/xrrMZ2wOpsS+vc4yZJktQI\ng5skSVIjDG6SJEmNMLhJkiQ1wuAmSZLUCIObJElSIwxukiRJjTC4SZIkNcLgJkmS1AiDmyRJUiN8\n5JUkSZobrT+GzD1ukiRJjTC4SZIkNcLgJkmS1AiDmyRJUiMMbpIkSY2Y+eCW5ElJNiXZnmRbkj9N\nsn7afUmSJK22mb4dSJLHA1/oP90I7AmcAXw+yWFVtW1qzUmSJK2ymQ5uwNnAWuC4qrocIMkNwEXA\nqcCbp9eaJEnS6prZQ6VJ9gZeDFw/CG29S4DtwMnT6EuSJGlaZja4AYcBjwauHF5YVfcCVwOHJFk7\njcYkSZKmYZaD2/p+3Dpi7qZ+PHB1WpEkSZq+WQ5ua/rxnhFzO5bUSJIk7fZSVdPuYaQkL6Q7n+29\nVXXqkrlPAD8NPKWq/s/Q8lOAU/pPfwi4foXb3A+4eYW/xmpxW2bT7rItu8t2gNsyq3aXbdldtgPc\nluU6sKoWHqpolq8qvbEf142YG2zYluGFVXUecN4K9nQ/STZX1YbV+noryW2ZTbvLtuwu2wFuy6za\nXbZld9kOcFtWyiwfKr2G7urRo4cXJtkHOBy4tqpunUZjkiRJ0zCzwa2/evRC4IAkxw9NnQg8HLhg\nKo1JkiRNySwfKgV4C/Ai4OIk76R7csLrgW8B751mY71VOyy7CtyW2bS7bMvush3gtsyq3WVbdpft\nALdlRczsxQkDSQ4FzqE7ZFrA54DTqmrLNPuSJElabTMf3CRJktSZ2XPcZlmSQ5L8eZI7k/xTkouT\nPGHafe2qJGckqSTnT7uXnZHk1UmuT3JXkq8mOWHaPS1Xksv778Goj/On3d84kjwxyfceYO7pSa5I\nckeSm5P8QQtPQEly3IN8X9497f6WK8mBSf4oyWKSrUk+lGTUFfwzLcnz+/f63Un+Ocl7kjxy2n3t\njCSHJtmU5Pb+d8snk/zYtPsa14O974dqfirJllVqaaLG2b7VMuvnuM2c/ofCp+kO254NPAL4FeAp\nSQ6rqv83zf52VpIfAt487T52VpKzgP9Odx7CNcAvAZuSHFVVX5lqc8uzETh/ybIn0J3vedeqdzOm\nJHsABwNPAd7KiD8KkzwZ+Czdk0/OorvVz+nAjyZ5WlWNutn2rPj+fvxN4IYlc3+3yr3skv6PzM3A\n3cBv013sdRpwbJIfr6rt0+xvXEmOBD4GfAN4I3AI8GrgUOA/TbG1Zev/eLmc7vfJO7jvfO5PJTmk\nqm6bYnsPaMz3/d59zVF075+Z/Tm21DjbNw0Gt+V7FfAfgB+rqmsAkmwD3g38DHDxFHvbKf3/nB+i\neyLF9025nWVL8njg14CNVfWmftkn6W7A/EqgmeBWVZcuXZbkdf0/P7nK7SzHOh76hteDX0jPqqob\n4N/eOxuBk4APr2iHu2YQ3P5XVV071U523WvobiZ6dFV9ESDJdcAfAy+j+1nWgjfR/SJ9TlVdB5Dk\nNuD1SU4Y9V6aYS8HHgecVFUXASS5h+4PtpcA75tibw9mnPf9TwBfHvr8GyvXzsSNs32rbibSY2N+\nEtgyCG29v+/H9avfzkS8DjgSOGPajeykk4CHAb83WFBVf093o+bXTKupCXoh3V+psxzcbgGe3X98\nbelkkv2B44HPDEJb74P9ePKKd7hrHtuP/zzVLibj0H68amjZVUvmWvAU4OZBaOsN/nB+/hT62RVH\n9OPwe7yF78mDvu971w7VfGeV+pqUcbZv1Rnclqmq/mtVHbRk8Y/047dWu59dleQQur/qPsBsB4MH\ncxRwO/CoJF/pz3e5Djh2Vg8xjCvJ44CnA5dV1cweYqiqHVV1ab+X45YRJUcBAa5cst4i8E26Pxxm\n2ffTPTf55CTfTLIjydeSPHvaje2Em/px/6FlByyZa8Fj+PfPsh4Egx+hLR+jO31g+Kbyg+/JqPfT\nTBjjfU9VbR+qaepUonG2bxoMbrsgyQ8kOYnu/Ip/AD4x5ZaWpT9E+kG656+dPuV2dsVBdD/APwH8\nFfCrwBq6+/8d8WArNuBEuvfpn0y7kV20vh+3jpi7iS50P3bE3Kz4fmBvuvOOzqU7v/UJwCf680Nb\nci5wJ/C7SQ5L8pPAu4BF4Pen2tnybAHWJXnM0LJBYNtv9dvZeVX1h1X11upv85BkL7rTPAr4+FSb\n08wxuO2a/0n3BIe7gRdU1R1T7me5Xku3J+QXG98z9Ui6Q1nnVtVrquocusOne9CFuJa9kC6U/tm0\nG9lFa/px1AUIO5bUzKItwCbgqKraWFW/RfeLdS8aO8Wgqq6mu7H5McDVdHtBDwWeV1UtHTW4gO6c\nyf/RX+n/LOBt/dze02tr1/R/UL+f7tywd1TVV6fckmaMwW3XvI1uT9X3gM/3V801IcnBdP1/DLi6\nPwdpoZ/eJ8n+SR42tQaXZxAGLhwsqKq/oDsv7PCpdDQB/Z6EY4HLq2rblNvZVXf2474j5vZdUjNz\nqurtVfW8qvrm0OJP92NTh+WSvIBuD+5ldH/g/DxdgPtUf6VmK86hC9M/T3cC+SXA2/u51v6IBiDJ\n4HGOr6A7Z/fM6XakWeRVpbugqr4MfDnJF+j+an0z7ZwU+wxgH7o9Oi9cMvez/cdxdJeoz7rv9uPd\nS5bfQmOHTJb4Gbo9B60fJgW4sR9H3StsAdheVbeOmJtlt/fjLB/ivZ8ke9Kdz3oDcGJV/Wu//BK6\nq/3eR3fS/8yrqruB5/VP13kc8Nfc97248QFXnFFJ1tAF0WOBt1bVWdPtSLPKPW7LkGS/JNclec+S\nqb/tx5bOdfkU910tM/h4aT/36f7zv5lKZ8s3+O+/fsnyxwD/uLqtTNR/Yfc5x+VLdNvyzOGFSQ6i\nO0n+S9NoahxJ1ia5ZsSNdgcnj7f0/9g6YC1w3SC0AfQXvmwBfnhKfS1bkuckeX5VXVdVV/T3n9vQ\nT39xmr0tV3949BK6w9e/bGjTgzG4Lc9gD84L+l3aA0/tx39Y/ZZ2TlV9e3C1zNBVM1f004O5mbmK\n5iEMzv962WBBkqfRnfv2l1PpaBcleQTdTUS/UlWjTuhvSlV9h+7Q3FP7PSQDJ/XjBavf1dhuoQs8\nP5tk+D6HP9ePf776Le20Rbo9hUf0e3iA7kIr4EnA16fV2E54NfDR/jSPgVPo9rxfNJ2WdtqpwAnA\n2VX1/mk3o9nmodJlqKp/TfJbwDuBzyW5CHgU3Q+QHdx3YqxW1ybgc8Cr+l+s19I9zeJe7jvnpTXP\nobsZ8u5wmHTgDXSH3y/r914NnpxwFTP8i7aqKsnb6G5Me3mSC+iuZH413d7eZn7RVtW9Sd4F/Drw\nxSQfoTscfwrdXftber+cQ3dk4H8n+RDwH+nuFfiGqvqnqXa2DEn2obuIahuwNclLl5TcUVUfXfXG\nNLuqyo9lftAdwvoysJ3uVgYfB5487b4msF3r6Q5nnT/tXnai90cBv0N3H6d/oQsDJ0y7r13Yngv7\n78XB0+5lJ3q/vPvRMnLuSLo9u3fSnZv4YWDttHsec7teThfUdtDdiPe8Vnpfsh2huxv/lXRh4eb+\ne/Lcafe2E9vyErrz9f6F7g+2U6bd005sw+Dn7gN9bJl2j2NuxwO+74dqtrSyPTuzfav1kb4hSZIk\nzTjPcZMkSWqEwU2SJKkRBjdJkqRGGNwkSZIaYXCTJElqhMFNkiSpEQY3SZKkRhjcJEmSGmFwkyRJ\nasT/B/gSR4fmzNqGAAAAAElFTkSuQmCC\n",
      "text/plain": [
       "<Figure size 720x432 with 1 Axes>"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    }
   ],
   "source": [
    "%matplotlib inline\n",
    "train_data['label'].value_counts().plot.bar(figsize=(10,6), fontsize=20, rot=0)\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "类别共有： 11\n"
     ]
    },
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>label</th>\n",
       "      <th>sentence</th>\n",
       "      <th>words</th>\n",
       "      <th>c_numerical</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>2</td>\n",
       "      <td>合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。</td>\n",
       "      <td>合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...</td>\n",
       "      <td>8</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。</td>\n",
       "      <td>公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。</td>\n",
       "      <td>8</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖商业定位及策划、商业设计、销售代理、招商代理电子商务、以及商业地产运管服务；同时开展应用互联网电商模式，采取O2O线上导流线下服务方式进行住宅类业务的创新营销服务。公司的业务板块包括商业地产策划顾问、专业招商及运营管理、代理销售、麦吉铺O2O电子商务。</td>\n",
       "      <td>公司 立足于 商业地产 服务 ， 致力于 为 商业地产 开发 、 销售 、 运营 全 产业链 提供 一整套 增值 服务 ， 业务 覆盖 商业 定位 及 策划 、 商业 设计 、 销售 代理 、 招商 代理 电子商务 、 以及 商业地产 运管 服务 ； 同时 开展 应用 互联网 电商 模式 ， 采取 O2O 线上 导流 线下 服务 方式 进行 住宅 类 业务 的 创新 营销 服务 。 公司 ...</td>\n",
       "      <td>10</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   label  \\\n",
       "0      2   \n",
       "1      2   \n",
       "2      1   \n",
       "\n",
       "                                                                                                                                                                              sentence  \\\n",
       "0  合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。   \n",
       "1                                                                                                                                    公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。   \n",
       "2         公司立足于商业地产服务，致力于为商业地产开发、销售、运营全产业链提供一整套增值服务，业务覆盖商业定位及策划、商业设计、销售代理、招商代理电子商务、以及商业地产运管服务；同时开展应用互联网电商模式，采取O2O线上导流线下服务方式进行住宅类业务的创新营销服务。公司的业务板块包括商业地产策划顾问、专业招商及运营管理、代理销售、麦吉铺O2O电子商务。   \n",
       "\n",
       "                                                                                                                                                                                                     words  \\\n",
       "0  合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...   \n",
       "1                                                                                                                             公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。   \n",
       "2  公司 立足于 商业地产 服务 ， 致力于 为 商业地产 开发 、 销售 、 运营 全 产业链 提供 一整套 增值 服务 ， 业务 覆盖 商业 定位 及 策划 、 商业 设计 、 销售 代理 、 招商 代理 电子商务 、 以及 商业地产 运管 服务 ； 同时 开展 应用 互联网 电商 模式 ， 采取 O2O 线上 导流 线下 服务 方式 进行 住宅 类 业务 的 创新 营销 服务 。 公司 ...   \n",
       "\n",
       "   c_numerical  \n",
       "0            8  \n",
       "1            8  \n",
       "2           10  "
      ]
     },
     "execution_count": 7,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 建立label的stoi表\n",
    "def create_lookup_table():\n",
    "    c_class_lst = list(train_data['label'].value_counts().index)\n",
    "    c_class_stoi = {c_class_lst[i]: i for i in range(len(c_class_lst))}\n",
    "    return c_class_stoi\n",
    "c_class_stoi = create_lookup_table()\n",
    "pickle.dump(c_class_stoi, open('data/label_stoi.pkl', 'wb'))\n",
    "c_numerical = [c_class_stoi[e] for e in train_data['label']]\n",
    "train_data['c_numerical'] = c_numerical\n",
    "print('类别共有：', len(c_class_stoi))\n",
    "train_data[:3]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "edc23eda70a243609ab332c099681347",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "A Jupyter Widget"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n"
     ]
    }
   ],
   "source": [
    "# 处理低频词\n",
    "def construct_dict(df):\n",
    "    word_dict = {}\n",
    "    corput = df.words\n",
    "    for line in tqdm(corput):\n",
    "        for e in line.strip().split():\n",
    "            word_dict[e] = word_dict.get(e, 0) + 1\n",
    "    return word_dict\n",
    "word_dict = construct_dict(train_data)\n",
    "#char_dict = construct_dict(train_data, d_type='char')\n",
    "word_stop_word = [e for e in word_dict if word_dict[e] <=2]\n",
    "#print(word_stop_word)\n",
    "#char_stop_word = [e for e in char_dict if char_dict[e] <=3]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "77e053537b6d4733a412b8074f608ebc",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "A Jupyter Widget"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n"
     ]
    },
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style>\n",
       "    .dataframe thead tr:only-child th {\n",
       "        text-align: right;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: left;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>label</th>\n",
       "      <th>sentence</th>\n",
       "      <th>words</th>\n",
       "      <th>c_numerical</th>\n",
       "      <th>word_mf2</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>2</td>\n",
       "      <td>合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。</td>\n",
       "      <td>合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...</td>\n",
       "      <td>8</td>\n",
       "      <td>资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 基金业...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>2</td>\n",
       "      <td>公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。</td>\n",
       "      <td>公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。</td>\n",
       "      <td>8</td>\n",
       "      <td>公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   label  \\\n",
       "0      2   \n",
       "1      2   \n",
       "\n",
       "                                                                                                                                                                              sentence  \\\n",
       "0  合晟资产是一家专注于股票、债券等二级市场投资，为合格投资者提供专业资产管理服务的企业。公司业务范围包括资产管理、投资咨询和投资顾问服务。公司管理的私募基金产品主要包括股票型、债券型资产管理计划或证券投资基金，管理总资产规模80亿元左右。根据中国证券投资基金业协会数据，公司管理的私募证券投资基金（顾问管理）类规模较大，公司管理规模处于50亿元以上的第一梯队。   \n",
       "1                                                                                                                                    公司的主营业务为向中小微企业、个体工商户、农户等客户提供贷款服务，自设立以来主营业务未发生过变化。   \n",
       "\n",
       "                                                                                                                                                                                                     words  \\\n",
       "0  合晟 资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 ...   \n",
       "1                                                                                                                             公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。   \n",
       "\n",
       "   c_numerical  \\\n",
       "0            8   \n",
       "1            8   \n",
       "\n",
       "                                                                                                                                                                                                  word_mf2  \n",
       "0  资产 是 一家 专注 于 股票 、 债券 等 二级 市场 投资 ， 为 合格 投资者 提供 专业 资产 管理 服务 的 企业 。 公司 业务范围 包括 资产 管理 、 投资 咨询 和 投资 顾问 服务 。 公司 管理 的 私募 基金 产品 主要 包括 股票 型 、 债券 型 资产 管理 计划 或 证券 投资 基金 ， 管理 总资产 规模 80 亿元 左右 。 根据 中国 证券 投资 基金业...  \n",
       "1                                                                                                                             公司 的 主营业务 为 向 中小 微 企业 、 个体 工商户 、 农户 等 客户 提供 贷款 服务 ， 自 设立 以来 主营业务 未 发生 过 变化 。  "
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 过滤低频词\n",
    "def filter_low_freq(df):\n",
    "    min_freq = 2\n",
    "    word_seg_mf2 = []\n",
    "    for w in tqdm(df.words):\n",
    "        word_seg_mf2.append(' '.join([e for e in w.split() if word_dict[e] > min_freq]))\n",
    "    df['word_mf2'] = word_seg_mf2\n",
    "filter_low_freq(train_data)\n",
    "train_data[:2]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "train_data_path = base_path+'train_data.txt'\n",
    "with open(train_data_path,'w') as w:\n",
    "    for index,row in train_data.iterrows():\n",
    "        r = row['word_mf2']+' '+'%s%s\\n' % ('__label__',row['label'])\n",
    "        #print(r)\n",
    "        w.write(row['word_mf2']+' '+'%s%s\\n' % ('__label__',row['label']))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 58,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "828862831e3b4437882428afe06b226f",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "A Jupyter Widget"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n",
      "训练集语料: 7155\n",
      "总长度:  7155\n",
      "保存模型...\n"
     ]
    },
    {
     "data": {
      "application/vnd.jupyter.widget-view+json": {
       "model_id": "f44f88438bf54e49be3d8ccdf7ea14ff",
       "version_major": 2,
       "version_minor": 0
      },
      "text/plain": [
       "A Jupyter Widget"
      ]
     },
     "metadata": {},
     "output_type": "display_data"
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "\n",
      "制罐 [ 0.0418244   0.00652876 -0.00683432 -0.03363565 -0.0060061  -0.03345629\n",
      " -0.00894651  0.04804871 -0.03330678 -0.00066557  0.01664505  0.03310843\n",
      "  0.02307556  0.00662602 -0.05241607 -0.01821518  0.00585525  0.00591174\n",
      " -0.00961369  0.02198887  0.00425521  0.07354435 -0.00637301  0.04176941\n",
      "  0.04968224 -0.00258213 -0.00962861 -0.00450187  0.00694203 -0.00113176\n",
      " -0.00617487 -0.00794737 -0.02161303  0.02992037  0.04334512 -0.02738208\n",
      "  0.00468561 -0.01905124 -0.04348115  0.00108763 -0.00457613  0.02630501\n",
      "  0.04310722  0.01906726 -0.06998971  0.04734486 -0.0090263  -0.02106079\n",
      "  0.08124562  0.01437702  0.04374559  0.00314078 -0.07812586  0.02946209\n",
      "  0.01279136  0.03584461 -0.00729875  0.02806131 -0.02589095  0.02406925\n",
      " -0.01935681  0.05981446 -0.01546768  0.00300905  0.00360615 -0.01194812\n",
      " -0.00636125  0.03558619 -0.00103179 -0.02715684  0.03293472 -0.08531884\n",
      "  0.04560858  0.070185    0.02570141  0.00368333  0.02247421 -0.00775874\n",
      " -0.03703577 -0.03901559 -0.04933034  0.01918907  0.00724242 -0.00996226\n",
      "  0.08336111  0.02792831 -0.03760013  0.04082699 -0.04554002 -0.00481082\n",
      "  0.01230813  0.00824339  0.0115249   0.09239548  0.01283502  0.01600635\n",
      " -0.05822252 -0.01987387 -0.03342653  0.02124358 -0.00756135  0.03110694\n",
      " -0.00197785  0.00040553  0.0146326  -0.01152424  0.01531302  0.00602908\n",
      " -0.01914856  0.1074865  -0.05219087  0.019191    0.04093869 -0.06918423\n",
      " -0.07401857  0.07905147  0.03086736 -0.02789551  0.02221963  0.07777644\n",
      " -0.07694454  0.02208925 -0.02674945  0.06544556 -0.01012174  0.04503171\n",
      "  0.03319632  0.03459325]\n",
      "OK\n"
     ]
    }
   ],
   "source": [
    "# 训练词向量\n",
    "def train_w2v_model(min_freq=2, size=128):\n",
    "    sentences = []\n",
    "    corpus = pd.concat((train_data['words'], test_data['words']))\n",
    "    for e in tqdm(corpus):\n",
    "        sentences.append([i for i in e.strip().split() if i])\n",
    "    print('训练集语料:', len(corpus))\n",
    "    print('总长度: ', len(sentences))\n",
    "    model = Word2Vec(sentences, size=size, window=5, min_count=min_freq)\n",
    "    model.itos = {}\n",
    "    model.stoi = {}\n",
    "    model.embedding = {}\n",
    "    model.w2v = {}\n",
    "    \n",
    "    print('保存模型...')\n",
    "    for k in tqdm(model.wv.vocab.keys()):\n",
    "        #print(k)\n",
    "        model.itos[model.wv.vocab[k].index] = k\n",
    "        model.stoi[k] = model.wv.vocab[k].index\n",
    "        model.embedding[model.wv.vocab[k].index] = model.wv[k]\n",
    "        model.w2v[k] = model.wv[k]\n",
    "        #print(k,model.wv[k])\n",
    "\n",
    "    model.save('data/word2vec-models/word2vec_tc')\n",
    "    #model.wv.save_word2vec_format('data/word2vec-models/word2vec_tc.bin', binary=True)\n",
    "    print(k,model.wv[k])\n",
    "    return model\n",
    "model = train_w2v_model(size=128)\n",
    "#model.wv.save_word2vec_format('data/word2vec-models/word2vec_tc.bin', binary=True)\n",
    "# train_df[:3]\n",
    "print('OK')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "import gensim\n",
    "model = gensim.models.word2vec.Word2Vec.load('data/word2vec-models/word2vec_tc')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "#for i,w in \n",
    "#print(zip(model.itos,model.embedding))\n",
    "#model.itos"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": [
    "# 训练词向量\n",
    "def train_ft_model(min_freq=2, size=128):\n",
    "    sentences = []\n",
    "    corpus = pd.concat((train_data['words'], test_data['words']))\n",
    "    for e in tqdm(corpus):\n",
    "        sentences.append([i for i in e.strip().split() if i])\n",
    "    print('训练集语料:', len(corpus))\n",
    "    print('总长度: ', len(sentences))\n",
    "    model = Word2Vec(sentences, size=size, window=5, min_count=min_freq)\n",
    "    model.itos = {}\n",
    "    model.stoi = {}\n",
    "    model.embedding = {}\n",
    "    model.w2v = {}\n",
    "    \n",
    "    print('保存模型...')\n",
    "    for k in tqdm(model.wv.vocab.keys()):\n",
    "        #print(k)\n",
    "        model.itos[model.wv.vocab[k].index] = k\n",
    "        model.stoi[k] = model.wv.vocab[k].index\n",
    "        model.embedding[model.wv.vocab[k].index] = model.wv[k]\n",
    "        model.w2v[k] = model.wv[k]\n",
    "        #print(k,model.wv[k])\n",
    "\n",
    "    model.save('data/word2vec-models/word2vec_tc')\n",
    "    #model.wv.save_word2vec_format('data/word2vec-models/word2vec_tc.bin', binary=True)\n",
    "    print(k,model.wv[k])\n",
    "    return model\n",
    "model = train_ft_model(size=128)\n",
    "#model.wv.save_word2vec_format('data/word2vec-models/word2vec_tc.bin', binary=True)\n",
    "# train_df[:3]\n",
    "print('OK')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {
    "collapsed": true
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.6"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
